
视频生成1.3B碾压14B、图像生成直逼GPT-4o!港科&快手开源测试时扩展新范式
视频生成1.3B碾压14B、图像生成直逼GPT-4o!港科&快手开源测试时扩展新范式测试时扩展(Test-Time Scaling)极大提升了大语言模型的性能,涌现出了如 OpenAI o 系列模型和 DeepSeek R1 等众多爆款。那么,什么是视觉领域的 test-time scaling?又该如何定义?
测试时扩展(Test-Time Scaling)极大提升了大语言模型的性能,涌现出了如 OpenAI o 系列模型和 DeepSeek R1 等众多爆款。那么,什么是视觉领域的 test-time scaling?又该如何定义?
Ilya 去哪了? 作为 OpenAI 联合创始人,Ilya Sutskever 一直是最靠近 AI 技术核心的人。如今他不再出现在 OpenAI 的发布会现场,而是选择重新开始。
刚发布就全网刷屏的 Kontext 靠“一致性”和“多模态理解”硬刚 OpenAI,在视觉生成界引发了一波震动。
两年半前,Liam Fedus 曾参与 ChatGPT 的研发团队,掀起了人工智能热潮。如今他加入了日益壮大的 OpenAI 前员工创业阵营,乘着 AI 投资风口创立自己的企业。
OpenAI 发论文的频率是越来越低了,如果你看到了一份来自 OpenAI 的新 PDF 文件,那多半也是新模型的系统卡或相关增补文件或基准测试,很少有新的研究论文。
长视频理解是多模态大模型关键能力之一。尽管 OpenAI GPT-4o、Google Gemini 等私有模型已在该领域取得显著进展,当前的开源模型在效果、计算开销和运行效率等方面仍存在明显短板。
今天,我们正式发布 DeepSeek-R1,并同步开源模型权重。DeepSeek-R1 遵循 MIT License,允许用户通过蒸馏技术借助 R1 训练其他模型。DeepSeek-R1 上线API,对用户开放思维链输出,通过设置 `model='deepseek-reasoner'` 即可调用。
在大型推理模型(例如 OpenAI-o3)中,一个关键的发展趋势是让模型具备原生的智能体能力。具体来说,就是让模型能够调用外部工具(如网页浏览器)进行搜索,或编写/执行代码以操控图像,从而实现「图像中的思考」。
该项目在今年1 月进一步扩大,Crusoe 与甲骨文签署了更大规模的租赁协议 ,新增 6 个数据中心,覆盖整个 1.2 吉瓦的场地,The Information 率先报道。该协议使甲骨文能为 OpenAI 提供的算力规模翻了两番,额外增加 30 万块 GPU。最初与 Blue Owl 成立的合资企业并不包含此次扩建计划。
就在刚刚,OpenAI 正式官宣,将以接近 65 亿美元(折合人民币 468.16 亿元)的价格收购由 OpenAI CEO Sam Altman 与前苹果首席设计官 Jony Ive 联合创办的 AI 设备初创公司 io。